谷歌Gemini推出实时AI视频功能
谷歌Gemini推出实时AI视频功能谷歌发言人 Alex Joseph 在给The Verge的电子邮件中证实,谷歌已开始向 Gemini Live 推出新的 AI 功能,使其能够看到你的屏幕或通过你的智能手机摄像头回答有关实时问题。
谷歌发言人 Alex Joseph 在给The Verge的电子邮件中证实,谷歌已开始向 Gemini Live 推出新的 AI 功能,使其能够看到你的屏幕或通过你的智能手机摄像头回答有关实时问题。
华人学者、斯坦福大学副教授 James Zou 领导的团队提出了 TextGrad ,通过文本自动化“微分”反向传播大语言模型(LLM)文本反馈来优化 AI 系统。只需几行代码,你就可以自动将用于分类数据的“逐步推理”提示转换为一个更复杂的、针对特定应用的提示。
在 3 月初宣布AI 增强版 Siri 跳票之后,苹果股价单日暴跌 4.85%,创下两年半来的最大跌幅,各种负面评论更是足足刷屏了两周。3 月 21 日,彭博社爆料称,苹果 CEO 蒂姆·库克已经对目前的 AI 团队失去了信心,并更换了 AI 团队的负责人——现在由 Mike Rockwell 负责,他之前是 Apple Vision Pro 团队的关键人物。
先上一张图,这是一组 AI 生成视频的封面,如果你看到这些图片就已经感到不适,再细想一下,这要是你随手下滑,自动播放的短视频呢?
2024 年 9 月,我们第一次去 Haivivi 北京办公室和 CEO 李勇见面。在交谈的两小时里,他不断被会议室外的员工提醒看手机。
本周早些时候,Anthropic 为其 AI 驱动的聊天机器人平台 Claude,推出了网页搜索功能,使其与许多竞争对手保持一致。
知名 AI 工程师、Pleias 的联合创始人 Alexander Doria 最近针对 DeepResearch、Agent 以及 Claude Sonnet 3.7 发表了两篇文章,颇为值得一读,尤其是 Agent 智能体的部分。
在虚拟现实、游戏以及 3D 内容创作领域,从单张图像重建高保真且可动画的全身 3D 人体一直是一个极具挑战性的问题:人体多样性、姿势复杂性、数据稀缺性等等。
自动驾驶实现垂直领域的AGI,有了新路径。不是Robotaxi,而是RoadAGI。在英伟达GTC 2025上,元戎启行CEO周光受邀分享,提出用RoadAGI,能更快大规模商用自动驾驶,实现垂直道路场景下的AGI,RoadAGI的实施平台,是元戎最新分享的AI Spark:
Grok连夜上线图片编辑功能,继Gemini引爆图片编辑热潮后,动动嘴就能实现「证件照换西装」、「黑发变金发」等专业级P图效果。随着AI巨头内卷加剧,很多工作可能会经历「从复杂操作到简单交互」的范式转移,大模型内卷,受伤可能是传统软件。